Lista de Produtos de IA

Lista de Produtos de IA

Pesquise as tendências globais de produtos de IA

Pesquise informações globais de IA e descubra novas oportunidades de IA

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

Tipo :

Informação de Notícias
Aplicações de Produtos
Casos de Monetização
Tutoriais de IA

2024-12-05 14:45:53.AIbase

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

Em 5 de dezembro, a equipe de modelos de linguagem grandes do ByteDance Doubao lançou o mais recente benchmark de avaliação de modelos de código grandes - FullStack Bench, abrangendo mais de 11 categorias de cenários reais, suportando 16 linguagens de programação e contendo 3374 problemas. Em comparação com os padrões de avaliação anteriores, este benchmark pode avaliar com mais precisão a capacidade de desenvolvimento de código de modelos grandes em uma gama mais ampla de campos de programação, promovendo a otimização de modelos em tarefas de programação do mundo real. Os benchmarks de código principais atuais, como HumanEval e MBPP, geralmente se concentram em fundamentos e níveis avançados

ByteDance lança novo benchmark de avaliação de modelos de código de código aberto: "FullStack Bench"

2023-11-02 15:21:41.AIbase

Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps

O Grupo Ant Financial, em conjunto com a Universidade de Pequim, lançou um benchmark de avaliação de modelos de linguagem grandes para a área de DevOps. O benchmark inclui questões de múltipla escolha em 8 categorias: planejamento, codificação, construção, teste e lançamento, entre outras. São 4850 questões no total. O benchmark também faz uma subdivisão para tarefas AIOps. Os resultados da avaliação mostram que as pontuações dos modelos são bastante próximas.